查看原文
其他

什么时候需要标准化回归模型中的变量?

计量经济圈社群 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

投稿:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于计量方法合辑,各位学者可以查看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。

最近,我们引荐了①如何选择正确的自变量(控制变量),让你的计量模型不再肮脏,②忽略交互效应后果很严重,审稿人很生气!,③过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图,④空间双重差分法(spatial DID)最新实证papers合辑,机器学习方法出现在AER, JPE, QJE等顶刊上了,⑥中介效应检验流程, 示意图公布, 不再畏惧中介分析等,在学者间引起了广泛的讨论。与本文密切相关的内容,面板数据中去中心化的交互项回归什么情况

正文

什么时候需要标准化回归模型中的变量?

标准化是将不同变量置于同一规格(same scale)的过程。在回归分析中,在某些情况下,标准化你的自变量至关重要,不然可能会产生误导性结果。
在这篇文章中,我们将说明何时以及为什么需要在回归分析中标准化变量。不用担心,此过程很简单,可以帮助确保你信任结果。实际上,标准化变量可以揭示你可能会错过的实质性发现!

为什么要标准化变量

在回归分析中,当模型包含多项式项以建模曲率(model curvature)或交互项时,你需要标准化自变量。这些项提供了有关自变量和因变量之间关系的关键信息,但它们也会产生大量的多重共线性。
多重共线性是指自变量间存在相关性。这个问题会掩盖模型中各项的统计显著性,产生不精确的系数,让选择正确模型的过程变得更加困难。
当包含多项式和交互项时,几乎可以肯定的是,你的模型具有过多的多重共线性。这些高阶项乘以模型中的自变量后,就很容易看出这些项与模型中其他自变量之间的关系。
当你的模型包含这些类型的项时,可能就有产生误导性结果并丢失具有统计显著性项的风险。
幸运的是,因为标准化自变量是一种减少高阶项产生多重共线性的简单方法。虽然,但必须注意,它不适用于有其他原因产生的多重共线性问题。
标准化自变量还可以帮助你确定哪个变量最重要。

如何标准化变量

标准化变量是一个简单的过程。大多数统计软件都可以自动为你行此操作。通常,标准化是指减去平均值然后除以标准差的过程。但是,要消除由高阶项引起的多重共线性,我建议仅减去均值,而不要除以标准差。减去均值也称为将变量去中心化。
将变量去中心化并对其进行标准化都会降低多重共线性。但是,标准化会改变系数的解释。因此,在本文中,我将变量去中心化。

解释标准变量的结果

在对自变量进行去中心化后,我们可以用通常的方式解释回归系数。因此,此方法易于使用,并且能产生易于解释的结果。
让我们来看一个示例,该示例说明高阶项的问题以及如何将变量去中心化话解决这些问题。

具有非标准化自变量的回归模型

首先,我们将在不使变量去中心化的情况下拟合模型,输出是因变量,并且我们将在回归模型中包含Input,Condition和交互项Input * Condition 。结果如下:
使用0.05 的显著性水平,“输入”和“输入*条件”在统计上是显著的,而“条件”不是。但是,请注意VIF值。VIF大于5表示有多重共线性度问题。条件(condition)和交互项(input * condition)的VIF都接近5。

具有标准变量的回归模型

现在,让我们再次拟合模型,但是我们将使用去中心化方法对自变量进行标准化。
标准化变量降低了多重共线性。所有VIF均小于5。此外,条件(condition)在模型中是显著的。而在前面,多重共线性隐藏了该变量的含义。
编码系数表显示了编码(标准化)系数。我的软件将编码后的值转换回以“未编码单位”为单位的回归方程式中的自然单位。以通常的方式解释这些值。
当你的回归模型包含交互项和多项式项时,标准化自变量会有很大好处。当模型具有这些项时,请始终标准化变量。请记住,将变量去中心化足以进行更直接的解释。这是一件容易的事,你也可以对你的结果更有信心。
读完本文之后,强烈建议各位学者参看今天第二篇文章“回归标准误比R2更好,在拟合优度度量方面”。

拓展性阅读

2月21日,给各位学者引荐了二个数据库的使用指南疫情期Wind资讯金融终端操作指南CEIC数据库操作指南,参考一下“清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!。2月22日,引荐了“估计具有两个高维固定效应的泊松回归模型”,里面包括面板泊松回归、面板负二项回归、控制函数法CF、受限三次样条等等。2月27日,引荐了“哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!”和“最清晰的内生性问题详解及软件操作方案!实证研究必备工具!
之前,咱们圈子引荐过一些数据库(当然,社群里的数据库远不止这些),如下:1.这40个微观数据库够你博士毕业了2.中国工业企业数据库匹配160大步骤的完整程序和相应数据3.中国省/地级市夜间灯光数据4.1997-2014中国市场化指数权威版本5.1998-2016年中国地级市年均PM2.56.计量经济圈经济社会等数据库合集7.中国方言,官员, 行政审批和省长数据库开放8.2005-2015中国分省分行业CO2数据9.国际贸易研究中的数据演进与当代问题10.经济学研究常用中国微观数据手册

之前,咱们小组引荐了1.DID运用经典文献,强制性许可:来自对敌贸易法的证据2.连续DID经典文献, 土豆成就了旧世界的文明3.截面数据DID讲述, 截面做双重差分政策评估的范式4.RDD经典文献, RDD模型有效性稳健性检验5.事件研究法用于DID的经典文献"环境规制"论文数据和程序6.广义DID方法运用得非常经典的JHE文献7.DID的经典文献"强制许可"论文数据和do程序8.传销活动对经济发展影响, AER上截面数据分析经典文9.多期DID的经典文献big bad banks数据和do文件10.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章12.第二篇因果推断经典,工作中断对工人随后生产效率的影响?13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文14.AER上以DID, DDD为识别策略的劳动和健康经济学15.一个使用截面数据的政策评估方法, 也可以发AER,16.多期DID模型的经典文献,big bad banks讲解",",17.多期DID的经典文献big bad banks数据和do文件18.非线性DID, 双重变换模型CIC, 分位数DID,受到博士生导师普遍欢迎,并分享给其指导的学生学习。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2年,计量经济圈公众号近1000篇文章,

Econometrics Circle




数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 |

计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 

数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |


干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |

计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存